# Importando e conhecendo o dataset

Nesta seção vamos importar as bases de dados de pedidos de impeachment por presidente e o período de cada governo. 

Em seguida, vamos concatenar as bases por presidente e associar o período de governo a cada pedido. Assim será possível compor um único dataset completo e conhecer as suas colunas e variáveis. 

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Atribuindo o caminho dos arquivos a variáveis do ambiente: 
input_path = 'bases/pedidos_de_impeachment/'
output_path = '../bases_tratadas/'
bolsonaro = input_path + 'Bolsonaro.csv'
temer = input_path + 'Temer.csv'
dilma = input_path + 'Dilma.csv'
lula = input_path + 'Lula.csv'
fhc = input_path + 'FHC.csv'
itamar = input_path + 'Itamar.csv'
collor = input_path + 'Collor.csv'

tempo_de_governo = 'bases/período_dos_governos.csv'

In [3]:
# Vamos concatenar as bases de cada presidente em um único dataframe:

df_bolsonaro = pd.read_csv(bolsonaro)
df_temer = pd.read_csv(temer)
df_dilma = pd.read_csv(dilma)
df_lula = pd.read_csv(lula)
df_fhc = pd.read_csv(fhc)
df_itamar = pd.read_csv(itamar)
df_collor = pd.read_csv(collor)

lista = [df_bolsonaro, df_temer, df_dilma, df_lula, df_fhc, df_itamar,df_collor ]

# Em 'df_lista' vamos concatenar todos os pedidos de cada presidente
df_lista = pd.concat(lista)
# Para verificar o resultado, vamos imprimir a quantidade total de pedidos por presidente:
df_lista['Presidente'].value_counts()

Bolsonaro    136
Dilma         68
Lula          37
Temer         31
Collor        29
FHC           24
Itamar         4
Name: Presidente, dtype: int64

In [4]:
# A tabela período possui a data de início e fim de cada governo
periodo = pd.read_csv(tempo_de_governo)
periodo

Unnamed: 0,Presidente,Início,Fim
0,Bolsonaro,01/01/2019,26/09/2021
1,Collor,15/3/1990,2/10/1992
2,Dilma,01/01/2011,31/08/2016
3,FHC,01/01/1995,31/12/2002
4,Itamar,02/10/1992,31/12/1994
5,Lula,01/01/2003,31/12/2010
6,Temer,31/08/2016,31/12/2018


In [5]:
# Agora vamos associar as duas tabelas, para ter a informação do período de governo em cada pedido
df_lista = pd.merge(df_lista, periodo, on="Presidente")
df_lista.head(3)  #Aparece apenas o Bolsonaro pois só as 3 primeiras linhas da tabela são impressas

Unnamed: 0.1,Unnamed: 0,Presidente,DATA,Legislatura/\nPresidente da CD,Ementa,Interessado,Situação,Data do Despacho,Categoria,Publicação,Recurso,Início,Fim
0,1,Bolsonaro,2/5/2019,56ª Rodrigo Maia -\nDEM/RJ,Apresenta denúncia por crimes de responsabilid...,Antonio Jocelio da Rocha,Documento Apócrifo protocolizado em 5 de fever...,2/27/2019,Crime de responsabilidade,,,01/01/2019,26/09/2021
1,2,Bolsonaro,3/13/2019,56ª Rodrigo Maia -\nDEM/RJ,Apresenta denúncia por crime de responsabilida...,Diva Maria Piedade Vieira dos Santos,Em análise,,Crime de responsabilidade,,,01/01/2019,26/09/2021
2,3,Bolsonaro,4/2/2019,56ª Rodrigo Maia -\nDEM/RJ,Apresenta denúncia por crime de responsabilida...,Carlos Alexandre Klomfahs,Em análise,,Crime de responsabilidade,,,01/01/2019,26/09/2021


In [6]:
df_lista.columns

Index(['Unnamed: 0', 'Presidente', 'DATA', 'Legislatura/\nPresidente da CD',
       'Ementa', 'Interessado', 'Situação', 'Data do Despacho', 'Categoria',
       'Publicação', 'Recurso', 'Início', 'Fim'],
      dtype='object')

In [7]:
df_lista.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 329 entries, 0 to 328
Data columns (total 13 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   Unnamed: 0                     329 non-null    int64 
 1   Presidente                     329 non-null    object
 2   DATA                           329 non-null    object
 3   Legislatura/
Presidente da CD  329 non-null    object
 4   Ementa                         329 non-null    object
 5   Interessado                    329 non-null    object
 6   Situação                       329 non-null    object
 7   Data do Despacho               199 non-null    object
 8   Categoria                      329 non-null    object
 9   Publicação                     68 non-null     object
 10  Recurso                        67 non-null     object
 11  Início                         329 non-null    object
 12  Fim                            329 non-null    object
dtypes: in

# Tratando o nosso conjunto de dados
Agora vamos filtrar as colunas mais importantes do conjunto de dados, formatar os valores de data e, em seguida, criar os seguintes novos campos: 


*   Tempo de Governo em dias
*   Ano, Mês e Dia de governo em que o pedido foi apresentado. 
  *  Exp.: O Pedido **A** foi realizado no **X**º dia, **Y**º mês e **Z**º ano do governo **B**; 




In [8]:
# Em primeiro lugar, vamos filtrar as colunas relevântes em nosso dataset:
colunas_importantes = ['Presidente', 'Início', 'Fim', 'DATA', 'Categoria','Ementa']
dataset = df_lista.filter(colunas_importantes)
dataset

Unnamed: 0,Presidente,Início,Fim,DATA,Categoria,Ementa
0,Bolsonaro,01/01/2019,26/09/2021,2/5/2019,Crime de responsabilidade,Apresenta denúncia por crimes de responsabilid...
1,Bolsonaro,01/01/2019,26/09/2021,3/13/2019,Crime de responsabilidade,Apresenta denúncia por crime de responsabilida...
2,Bolsonaro,01/01/2019,26/09/2021,4/2/2019,Crime de responsabilidade,Apresenta denúncia por crime de responsabilida...
3,Bolsonaro,01/01/2019,26/09/2021,8/27/2019,Crime de responsabilidade,Denúncia por crime de responsabilidade por cri...
4,Bolsonaro,01/01/2019,26/09/2021,11/4/2019,Crime de responsabilidade,Denúncia por crime de responsabilidade em...
...,...,...,...,...,...,...
324,Collor,15/3/1990,2/10/1992,8/27/1992,Corrupção,Pedido de impeachment do Presidente Fernando C...
325,Collor,15/3/1990,2/10/1992,8/27/1992,Corrupção,Pedido de impeachment do Presidente Fernando C...
326,Collor,15/3/1990,2/10/1992,8/27/1992,Crime de responsabilidade,Requer a instauração de processo de impeachmen...
327,Collor,15/3/1990,2/10/1992,8/31/1992,Corrupção,Denuncia o Sr. Fernando Collor de Mello por cr...


In [9]:
# Agora vamos converter para datetime os campos com data, em seus respectivos formatos
dataset['DATA'] = pd.to_datetime(dataset['DATA'], format='%m/%d/%Y')
dataset['Início'] = pd.to_datetime(dataset['Início'], format='%d/%m/%Y')
dataset['Fim'] = pd.to_datetime(dataset['Fim'], format='%d/%m/%Y')

In [10]:
# Aqui calculamos o tempo de governo em dias e o dia de governo em que o pedido foi realizado

dataset['Tempo_de_Governo'] = dataset['Fim']-dataset['Início']
dataset['Tempo_de_Governo'] = (dataset['Tempo_de_Governo']/ np.timedelta64(1, 'D')).astype(int)

dataset['Dia_do_Pedido'] = dataset['DATA']-dataset['Início']

In [11]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 329 entries, 0 to 328
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype          
---  ------            --------------  -----          
 0   Presidente        329 non-null    object         
 1   Início            329 non-null    datetime64[ns] 
 2   Fim               329 non-null    datetime64[ns] 
 3   DATA              329 non-null    datetime64[ns] 
 4   Categoria         329 non-null    object         
 5   Ementa            329 non-null    object         
 6   Tempo_de_Governo  329 non-null    int64          
 7   Dia_do_Pedido     329 non-null    timedelta64[ns]
dtypes: datetime64[ns](3), int64(1), object(3), timedelta64[ns](1)
memory usage: 23.1+ KB


In [12]:
# Agora podemos calcular, a partir do dia do pedido, o mês e ano. Os valores são corridos, por exemplo: Pedido realizado no 50º dia, 2º mês e 1º ano. 
dataset['Mês_do_Pedido'] = dataset['Dia_do_Pedido'] / np.timedelta64(1, 'M') + 1
dataset['Mês_do_Pedido'] = dataset['Mês_do_Pedido'].astype(int)

dataset['Ano_pedido'] = dataset['Dia_do_Pedido'] / np.timedelta64(1, 'Y') + 1
dataset['Ano_pedido'] = dataset['Ano_pedido'].astype(int)

dataset['Dia_do_Pedido'] = (dataset['Dia_do_Pedido'] / np.timedelta64(1, 'D')).astype(int)

In [13]:
dataset

Unnamed: 0,Presidente,Início,Fim,DATA,Categoria,Ementa,Tempo_de_Governo,Dia_do_Pedido,Mês_do_Pedido,Ano_pedido
0,Bolsonaro,2019-01-01,2021-09-26,2019-02-05,Crime de responsabilidade,Apresenta denúncia por crimes de responsabilid...,999,35,2,1
1,Bolsonaro,2019-01-01,2021-09-26,2019-03-13,Crime de responsabilidade,Apresenta denúncia por crime de responsabilida...,999,71,3,1
2,Bolsonaro,2019-01-01,2021-09-26,2019-04-02,Crime de responsabilidade,Apresenta denúncia por crime de responsabilida...,999,91,3,1
3,Bolsonaro,2019-01-01,2021-09-26,2019-08-27,Crime de responsabilidade,Denúncia por crime de responsabilidade por cri...,999,238,8,1
4,Bolsonaro,2019-01-01,2021-09-26,2019-11-04,Crime de responsabilidade,Denúncia por crime de responsabilidade em...,999,307,11,1
...,...,...,...,...,...,...,...,...,...,...
324,Collor,1990-03-15,1992-10-02,1992-08-27,Corrupção,Pedido de impeachment do Presidente Fernando C...,932,896,30,3
325,Collor,1990-03-15,1992-10-02,1992-08-27,Corrupção,Pedido de impeachment do Presidente Fernando C...,932,896,30,3
326,Collor,1990-03-15,1992-10-02,1992-08-27,Crime de responsabilidade,Requer a instauração de processo de impeachmen...,932,896,30,3
327,Collor,1990-03-15,1992-10-02,1992-08-31,Corrupção,Denuncia o Sr. Fernando Collor de Mello por cr...,932,900,30,3


# Explorando a distribuição dos pedidos por tempo


Nesta seção vamos explorar os pedidos pela sua quantidade anual, as visualizações destes dados estão disponíveis nos links: 


*   https://public.flourish.studio/visualisation/7211292/
*   https://public.flourish.studio/visualisation/7214454/






In [14]:
# Construindo uma tabela-resumo dos pedidos por Ano: 

# Vamos agrupar o dataset por Presidente e Ano do Pedido: 
csv_pedidos_por_ano = dataset.groupby(['Presidente','Ano_pedido']).size().reset_index()
# Atualizar o nome das colunas: 
csv_pedidos_por_ano.columns = ['Presidente', 'Ano', 'Qtd'] 
# Transformar o agrupamento em uma tabela em que as categorias são colunas, os presidentes índices e a quantidade de pedidos por categoria os valores: 
csv_pedidos_por_ano = csv_pedidos_por_ano.pivot(index='Ano', columns='Presidente', values="Qtd")
# Preenchendo valores em branco com um zero:
csv_pedidos_por_ano= csv_pedidos_por_ano.fillna(0)
# Definindo uma coluna "Total de Pedidos"
csv_pedidos_por_ano['Total'] = csv_pedidos_por_ano.iloc[:, 0:7].sum(axis=1)
# Salvando em um arquivo .csv:
csv_pedidos_por_ano.to_csv(output_path+'pedidos_por_ano.csv')
csv_pedidos_por_ano

Presidente,Bolsonaro,Collor,Dilma,FHC,Itamar,Lula,Temer,Total
Ano,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,5.0,2.0,0.0,1.0,1.0,1.0,26.0,36.0
2,54.0,4.0,3.0,0.0,3.0,1.0,5.0,70.0
3,77.0,23.0,4.0,3.0,0.0,13.0,0.0,120.0
4,0.0,0.0,7.0,0.0,0.0,14.0,0.0,21.0
5,0.0,0.0,37.0,5.0,0.0,4.0,0.0,46.0
6,0.0,0.0,17.0,3.0,0.0,0.0,0.0,20.0
7,0.0,0.0,0.0,10.0,0.0,1.0,0.0,11.0
8,0.0,0.0,0.0,2.0,0.0,3.0,0.0,5.0


Agora vamos explorar o valor cumulativo de pedidos até, no máximo, mil dias de governo:

In [15]:
# Em primeiro lugar vamos filtrar o dataset com pedidos que vão até, no máximo, mil dias de governo:
# Selecionamos apenas as colunas relevantes p/ essa análise: Dia do pedido e Presidente:

pedidos_ate_1000dias = dataset.loc[dataset.Dia_do_Pedido < 1000].reset_index().filter(['Dia_do_Pedido', 'Presidente'])
pedidos_ate_1000dias

# Agora vamos agrupar os valores por dia e presidente:
group = pedidos_ate_1000dias.groupby(['Dia_do_Pedido','Presidente']).size().reset_index()
group.columns = ['Dia', 'Presidente','nPedidos']

resultado = group.pivot(index='Dia', columns='Presidente', values="nPedidos")
resultado = resultado.fillna(0)
resultado = resultado.cumsum(axis = 0)
resultado.to_csv(output_path + 'pedidos_ate_1000dias.csv')
resultado

Presidente,Bolsonaro,Collor,Dilma,FHC,Itamar,Lula,Temer
Dia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
35,1.0,0.0,0.0,0.0,0.0,0.0,0.0
71,2.0,0.0,0.0,0.0,0.0,0.0,0.0
89,2.0,0.0,0.0,0.0,0.0,0.0,1.0
90,2.0,0.0,0.0,0.0,0.0,0.0,2.0
91,3.0,0.0,0.0,0.0,0.0,0.0,2.0
...,...,...,...,...,...,...,...
952,134.0,29.0,3.0,3.0,4.0,9.0,31.0
954,135.0,29.0,3.0,3.0,4.0,9.0,31.0
961,136.0,29.0,3.0,3.0,4.0,9.0,31.0
984,136.0,29.0,4.0,3.0,4.0,9.0,31.0


# Explorando a distribuição geral por categoria

Nesta seção vamos explorar a categorização dos pedidos, realizada pelo dataDoc com a metodologia disponível aqui **COLOCAR LINK DPS **. Logo, vamos agrupar pedidos por presidente e categoria e em seguida visualizar a sua distribuição. 

Visualizações com os resultados dessa seção estão disponíveis nos links: 

*   https://public.flourish.studio/visualisation/7211452/
*   https://public.flourish.studio/visualisation/7211515/
*   https://public.flourish.studio/visualisation/7222830/

In [16]:
# Lista global de pedidos por categoria: 
dataset['Categoria'].value_counts()

Crime de responsabilidade    134
Saúde Pública: Covid          66
Corrupção                     60
Decoro presidencial           37
Atos Antidemocráticos         20
Crime eleitoral                8
Atos antidemocráticos          2
saúde Pública: Covid           1
Meio ambiente                  1
Name: Categoria, dtype: int64

In [17]:
# Identificamos que, possivelmente por erro de digitação, algumas categorias estavam duplicadas. Vamos contornar esse problema:  
dataset.loc[dataset['Categoria'] == "Atos antidemocráticos", 'Categoria'] = 'Atos Antidemocráticos'
dataset.loc[dataset['Categoria'] == "saúde Pública: Covid", 'Categoria'] = 'Saúde Pública: Covid'

In [18]:
dataset['Categoria'].value_counts()

Crime de responsabilidade    134
Saúde Pública: Covid          67
Corrupção                     60
Decoro presidencial           37
Atos Antidemocráticos         22
Crime eleitoral                8
Meio ambiente                  1
Name: Categoria, dtype: int64

In [20]:
# Para começar, vamos imprimir a lista ordenada de pedidos por categoria de cada presidente: 
groups=dataset.groupby(['Presidente'])['Categoria']

for key,item in groups:
  print(f'\n{key}\n')
  print(item.value_counts().head())


Bolsonaro

Saúde Pública: Covid         67
Crime de responsabilidade    31
Atos Antidemocráticos        20
Decoro presidencial          11
Corrupção                     6
Name: Categoria, dtype: int64

Collor

Crime de responsabilidade    16
Corrupção                    13
Name: Categoria, dtype: int64

Dilma

Crime de responsabilidade    32
Decoro presidencial          19
Corrupção                    11
Crime eleitoral               5
Atos Antidemocráticos         1
Name: Categoria, dtype: int64

FHC

Crime de responsabilidade    20
Corrupção                     2
Atos Antidemocráticos         1
Decoro presidencial           1
Name: Categoria, dtype: int64

Itamar

Crime de responsabilidade    2
Decoro presidencial          1
Crime eleitoral              1
Name: Categoria, dtype: int64

Lula

Crime de responsabilidade    21
Corrupção                    10
Decoro presidencial           4
Crime eleitoral               2
Name: Categoria, dtype: int64

Temer

Corrupção                   

In [21]:
# Construindo uma tabela-resumo dos pedidos por categoria: 

# Vamos agrupar o dataset por Presidente e Categoria: 
csv_pedidos_por_categoria = dataset.groupby(['Presidente','Categoria']).size().reset_index()
# Atualizar o nome das colunas: 
csv_pedidos_por_categoria.columns = ['Presidente', 'Categoria', 'Qtd'] 
# Transformar o agrupamento em uma tabela em que as categorias são colunas, os presidentes índices e a quantidade de pedidos por categoria os valores: 
csv_pedidos_por_categoria = csv_pedidos_por_categoria.pivot(index='Presidente', columns='Categoria', values="Qtd")
# Preenchendo valores em branco com um zero:
csv_pedidos_por_categoria= csv_pedidos_por_categoria.fillna(0)
# Definindo uma coluna "Total de Pedidos"
csv_pedidos_por_categoria['Total'] = csv_pedidos_por_categoria.iloc[:, 0:7].sum(axis=1)
# Salvando em um arquivo .csv:
csv_pedidos_por_categoria.to_csv(output_path+'pedidos_por_categoria.csv')
csv_pedidos_por_categoria

Categoria,Atos Antidemocráticos,Corrupção,Crime de responsabilidade,Crime eleitoral,Decoro presidencial,Meio ambiente,Saúde Pública: Covid,Total
Presidente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Bolsonaro,20.0,6.0,31.0,0.0,11.0,1.0,67.0,136.0
Collor,0.0,13.0,16.0,0.0,0.0,0.0,0.0,29.0
Dilma,1.0,11.0,32.0,5.0,19.0,0.0,0.0,68.0
FHC,1.0,2.0,20.0,0.0,1.0,0.0,0.0,24.0
Itamar,0.0,0.0,2.0,1.0,1.0,0.0,0.0,4.0
Lula,0.0,10.0,21.0,2.0,4.0,0.0,0.0,37.0
Temer,0.0,18.0,12.0,0.0,1.0,0.0,0.0,31.0


In [22]:
csv_pedidos_por_categoria.transpose().to_csv(output_path+'pedidos_por_categoria_v2.csv')
csv_pedidos_por_categoria.transpose()

Presidente,Bolsonaro,Collor,Dilma,FHC,Itamar,Lula,Temer
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Atos Antidemocráticos,20.0,0.0,1.0,1.0,0.0,0.0,0.0
Corrupção,6.0,13.0,11.0,2.0,0.0,10.0,18.0
Crime de responsabilidade,31.0,16.0,32.0,20.0,2.0,21.0,12.0
Crime eleitoral,0.0,0.0,5.0,0.0,1.0,2.0,0.0
Decoro presidencial,11.0,0.0,19.0,1.0,1.0,4.0,1.0
Meio ambiente,1.0,0.0,0.0,0.0,0.0,0.0,0.0
Saúde Pública: Covid,67.0,0.0,0.0,0.0,0.0,0.0,0.0
Total,136.0,29.0,68.0,24.0,4.0,37.0,31.0
